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摘 要 : [目的 /意义 ] 大 数据 服务 的 需求 使 得 知识 组 织 工作 面临 更 大 的 挑战 ,通过 发 现 、 理 解 和 分 析 这 些 挑战 ,把 握 知识 
组 织 工 作 的 可 能 变化 ,提出 应 对 方法 。 [方法 /过程 ] 聚焦 知识 组 织 系统 构建 和 应 用 ,从 大 数据 服务 项 目 实践 真实 
案例 出 发 ,分析 知识 组 织 不 同 角度 的 挑战 ,并 提出 应 对 策略 。[ 结果 /结论 ] 大 数据 服务 中 知识 组 织 挑战 可 以 分 为 
数据 膨胀 ,文献 保证 、 集 成 和 应 用 等 4 个 方面 ,提出 包含 新 型 知识 结构 、 多 来 源 更 新 策略 和 弹性 应 用 服务 模式 的 面 
向 大 数据 服务 的 系列 知识 组 织 框架 ,以 便 能 够 更 好 地 应 对 上 述 挑战 。 
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大 数据 这 一 概念 出 现 很 早 ,但 直到 2001 年 数据 分 
柄 吓 D. Laney 定义 了 3V 特性 后 才 引 起 广泛 关注 和 重 
视 时 ,包括 政府 号 .图 书馆 实情 报 机 构 呈 等 在 内 的 多 
各 业 均 深 受 其 影响 。 大 数据 服务 是 从 大 数据 特点 出 
居 s 油 用 大 量 分 散 数据 和 计算 资源 的 服务 ,可 以 分 为 大 
也 查询 服务 和 大 数据 分 析 服 务 两 种 方式 5 。 查 询 和 
水 洲 服 务 都 离 不 开 有 组 织 的 知识 ,对 知识 的 加 工 、 束 
理 驶 示 .控制 等 知识 组 织 过 程 " 有 利于 服务 质量 的 提 


织 和 知识 服务 工作 ”。 新 闻 出 版 机 构 注 重 从 源头 重 
塑 信息 资源 ,在 原 国 家 新 闻 出 版 广电 总 局 推动 下 ,国家 
知识 资源 服务 中 心 开始 建设 ,知识 组 织 相 关 行业 标准 
制定 发 布 王 ] ,多 家 出 版 机 构 利 用 自 有 专业 数字 内 容 构 
建 的 特色 知识 服务 开始 上 线 应 用 。 这 些 研 究 和 实践 为 
本 研究 提供 了 一 定 的 基础 。 


1 知识 组 织 挑战 


天 拉 。 大 数据 价值 的 充分 发 挥 需要 数据 内 部 更 为 广泛 
的 类 联 Ee ,而 这 也 是 知识 组 织 系 统 ( Knowledge Organi- 
za System ,KOS) 的 核心 作用 ,新 的 环境 下 ,知识 组 
织 玖 统 本 身 也 需要 做 出 变革 ,以 便 应 对 学 科 以 及 数据 
本 身 变化 并 更 具 灵 活性 和 适应 性 " ,在 大 数据 服务 实 
践 中 ,本 体 、 开 放 链 接 数 据 .知识 图 谱 等 知识 组 织 系统 
得 到 了 较 多 的 应 用 。 

大 数据 知识 组 织 工作 得 到 了 来 自 不 同 领域 机 构 的 
关注 和 推动 。 高 校 .图 书馆 情报 所 等 研究 服务 机 构 注 
重 理论 探索 和 自身 服务 升级 改造 。 研 究 机 构 在 推动 知 
识 组 织 适 应 知识 复 用 发现 和 增值 需要 ,将 知识 组 织 上 
计算 技术 相 结合 等 方面 已 经 开展 探索 ,并 在 一 些 细 分 
领域 和 行业 初步 取得 了 成 效 ” -1 。 综 合 性 服务 机 构 更 
注重 应 用 效果 ,如 中 国 工 程 科技 知识 中 心 较 早 注意 到 
知识 组 织 在 大 数据 服务 中 的 作用 ,并 大 力 推动 知识 组 


1.1 数据 膨胀 挑战 

知识 组 织 工 作 的 核心 是 通过 规范 实体 以 及 实体 之 
间 关 联 进而 通过 标 引 规范 数据 ,在 词 表 、 分 类 法 、 词 系 
统 .本 体 等 不 同类 型 的 知识 组 织 系统 中 ,这些 实体 可 能 
是 概念 、 词 条 、 类 目 等 。 大 数据 环境 下 实体 数目 增长 迅 
速 ,如 《汉语 主题 词 表 》1980 年 出 版 时 具有 正式 主题 词 
91 958 条 , 非 正式 主题 词 17 410 条 " ,而 2014 年 出 版 
的 《汉语 主题 词 表 (工程 技术 卷 )》 就 收录 优选 词 19.6 
万 条 , 非 优选 词 16.4 万 条 ;2018 年 《汉语 主题 词 表 ( 自 
然 科 学 卷 )》 则 收录 专业 术语 12.4 万 条 "5 。 清 华 大 学 
构建 的 XLORE 知识 图 谱 则 包含 超过 1 628 万 个 实 
体 "。 

随 着 知识 组 织 体 量 扩大 ,不 同 实体 之 间 的 关联 也 
日 益 丰 富 。 一 般 的 叙 词 表 中 的 关系 仅 包 含 用 、 代 、 属 、 
分 . 参 \ 族 等 ,属性 包括 多 语言 (翻译 ) .定义 ,范围 注 


x* 本 文系 中 国 工程 科技 知识 中 心 项 目 “ 知 识 组 织 体系 建设 "(项 目 编号 :CKCEST -2019 -2 -2) 和 中 国 科 学 技术 信息 研究 所 重点 工作 项 目 “ 科 


技 创 新 大 数据 决策 分 析 平 台 建 设 "( 项 目 编号 :ZD2019 -08) 研 究 成 果 之 一 。 
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释 、 历 史 注 释 、 一 般 注释 等 ,一 般 都 不 超过 10 种 ,而 美 
国 国立 医学 图 书馆 汇集 的 通用 医学 语言 系统 ( Unified 
Medical Language System,UMLS ) 的 语义 网 络 中 就 包含 
了 54 种 语义 关系 ;中国 科 学 技术 信息 研究 所 的 汉 
语 科技 词 系 统 中 语义 关系 类 型 更 为 丰富 ,在 其 新 能 源 
汽车 卷 中 二 级 关系 类 型 有 78 种 ,二 级 属性 类 型 有 45 
种 ;中 国 工程 科技 知识 中 心 词 表 ( 核 心 集 ) 有 各 类 关系 
399 种 ;Cye 知识 库 中 包含 各 类 关系 共 42 500 种 ” ; 
XLORE 知识 图 谱 包含 各 类 关系 超过 44.6 万 种 。 
实体 关联 类 型 膨胀 为 知识 组 织 系 统 的 构建 和 应 用 
带 来 了 挑战 。 在 手工 构建 实践 中 ,知识 工程 师 需要 为 
两 个 实体 确认 一 种 关系 ,在 数 十 种 关系 中 选择 所 花费 
的 时 间 要 远 远 大 于 从 数 种 关系 中 选择 ,而 准确 率 和 一 
致 位 则 会 下 降 。 在 自动 构建 实践 中 ,由 于 很 难处 理 同 


激 近 义 的 完 余 关联 类 型 ,加 之 实体 众多 ,很 难 一 一 审 


A 


糜 评 算 方法 ,根据 不 同 的 阔 值 判断 该 词 的 平均 相关 词 
闫 蓝 分 布 情况 (本 文中 观察 和 分 析 的 各 种 现象 会 受到 
不 司 语 料 库 及 计算 方法 的 影响 ,但 是 只 影响 数值 ,不 影 
响 湖 势 ) 见 表 1 , 随 着 阔 值 的 减 小 , 词 条 的 平均 相关 词 
尹 呈 增加 ,对 部 分 “明星 " 词 条 ,如 “教学 " 则 拥有 更 多 
9 租 关 词 , 远 超过 平均 水 平 ,膨胀 更 为 严重 。 

~ 表 1 相关 词 数 量 分 布 情况 


[CO 净值 平均 相关 词 数 量 “教学 ”相关 词 数量 

GS 09 2.88 88 

et 

© 0 3.61 165 

加 0.7 4.54 329 
0.6 5.95 648 
0.5 8.11 1 315 
0.4 | 2 486 
0.3 16.37 4 791 
0.2 20. 54 7 762 
0.1 24. 12 11 128 


1.2 文献 保证 挑战 

无 论 具 体 策略 如 何 ,知识 组 织 系统 构建 通常 要 考 
虑 文献 保证 原则 '” 。 在 具体 的 实践 中 ,通常 需要 有 文 
献 语料库 作为 评估 基础 ,但 是 大 数据 时 代 却 面临 着 语 
料 库 不 完备 不 平衡 和 不 准确 的 问题 ,这 些 问题 在 以 前 
也 存在 ,但 是 在 大 数据 时 代 则 变 得 更 为 突出 。 
1.2.1 不 完备 

由 于 计算 分 析 能 力 的 提升 ,用 于 知识 组 织 系 统 构 
建 的 语料库 规模 逐渐 增 大 ,但 是 与 需求 之 间 的 差距 并 


未 变 小 , 仍 不 能 完全 徐 盖 需求 。 如 某 项 实践 中 ,基于 特 
定 检索 策略 提取 约 2 000 万 条 二 次 文献 数据 作为 语 料 
库 , 在 其 中 分 析 “ 移 民 浪 潮 ” 的 相关 词 是 “新 加 坡 ”, 但 
是 没有 “美国 ”这 一 典型 移民 国家 ,与 常识 不 符 , 经 过 
分 析 , 实 际 上 是 语料库 中 并 未 包含 足够 的 “移民 浪潮 
和 “美国 ” 共 现 情况 。 

此 外 ,大 量 的 语 料 来 自 网 页 抓 取 ,而 很 多 隐藏 在 数 
据 库 中 的 数据 无 法 获取 , 这样 不 完备 的 语料库 会 影响 
基于 其 上 的 知识 组 织 系统 。 
1.2.2 不 平衡 

真实 世界 本 身 是 不 平衡 的 ,语料库 尽管 可 以 做 一 
些 筛选 和 调整 ,但 是 整体 上 仍然 是 不 平衡 的 。 根 据 词 
频 分 布 的 经 验 规 律 一 一 齐 普 夫 定律 ,词语 本 身 在 单 篇 
长 文章 中 的 运用 就 是 不 平衡 的 ,在 语料库 中 同样 也 是 
不 平衡 的 。 由 于 某 些 词 出 现 较 少 ,大 量 根据 统计 相关 
方法 获取 的 相关 词 就 会 更 少 。 如 在 某 实践 中 ,按照 同 
一 标准 计算 “移民 浪潮 ”的 相关 词 有 1 条 ,“ 高 管 ”的 
相关 词 有 43 条 ， 中 国 特色 社会 主义 理论 ”的 相关 词 有 
298 条 ,“ 教 学 ”的 相关 词 有 11 128 条 。 而 依照 先 验 知 
识 库 的 方法 同样 受 限 于 先 验 知识 本 身 赋 予 者 的 局 限 
性 ,依然 无 法 避免 不 平衡 性 。 
1.2.3 不 准确 

互联 网 环境 下 ,知识 传播 速度 更 快 ,错误 和 偏离 也 
会 加 速 传播 , 如 在 科学 技术 领域 常用 词 “ 国 值 ”, 在 很 
多 文献 中 被 写作 “ 阀 值 ”, 如果 依靠 统计 一 般 无 法 将 其 
过 滤 。 再 如 ,在 某 实践 中 发 现 “ 高 管 " 一 词 存 在 一 个 相 
关 词 "水墨 画 ”, 且 相关 度 达到 0. 303 ,不 符合 常识 ,后 
来 到 语料库 中 检索 发 现 《 艺 术 市 场 》 刊 物 中 有 几 期 介 
绍 一 位 名 为 “ 苦 高 管 " 的 画家 的 水 墨 画 作品 ,但 是 在 关 
键 词 中 被 错误 地 标注 为 “高 管 ” ,并 由 于 传播 等 原因 ， 
导致 错误 进一步 蔓延 。 在 大 数据 的 资源 条 件 下 ,如果 
不 是 人 工 核查 ,很 难 排除 这 种 情况 ,而 由 于 大 数据 体 量 
和 速度 等 因素 ,通过 人 工 核查 ,也 只 能 消除 部 分 情况 。 
1.3 集成 挑战 

大 数据 环境 下 ,需要 尽 可 能 通过 集成 等 方式 利用 
已 经 构建 好 的 分 散 的 知识 组 织 系统 ,但 是 集成 同样 会 
带 来 很 多 问题 。 
1.3.1 概念 定义 不 一 致 性 

知识 组 织 系统 更 关注 概念 ,但 是 形式 上 还 是 体现 
为 自然 语言 ,在 关联 数据 资源 时 ,也 往往 依赖 形式 匹 
配 。 自 然 语 言 就 存在 一 定 程 度 的 一 词 多 义 问 题 ,尽管 
对 专业 领域 选择 术语 的 时 候 考虑 了 单 义 性 ,但 是 实际 
上 很 难保 证 ,而 在 集成 的 时 候 , 往 往 需要 通过 词 形 将 不 
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同 来 源 的 知识 集成 起 来 , 则 就 会 存在 与 同一 个 词 建立 
关联 的 词 实际 上 来 自 不 同 领域 的 情况 ,进而 将 原来 无 
关 或 者 关联 很 小 的 词语 通过 较 短 的 路 径 就 能 联系 在 一 


而 一 些 较 大 规模 的 知识 组 织 系统 则 主要 依靠 自动 工 
具 。 自 动工 具 一 直 在 试图 模仿 人 工 , 但 是 由 于 人 工 识 


别 判 定 的 内 在 机 理 不 可 能 完全 形成 知识 库 或 者 被 机 器 


起 ,这 势必 会 影响 后 续 服 务 中 的 用 户 使 用 体验 。 如 “ 信 
息 生 态 学 ”一 词 实际 上 是 由 信息 学 和 生态 学 学 者 分 别 
提出 来 的 ,两 种 不 同 内 涵 的 “信息 生态 学 ”尽管 都 是 由 
信息 科学 和 生态 学 交叉 而 形成 的 学 科 ,但 在 研究 对 象 、 
研究 内 容 、 研 究 方法 等 方面 都 存在 着 显著 区 别 ” 。 
由 于 大 数据 本 身 涉 及 的 资源 并 非 都 是 严谨 的 学 术 

成 果 , 因 此 各 种 缩写 简写 更 为 普遍 ,尤其 英语 首 字 母 缩 
写 ,最 终 很 难 映射 到 知识 组 织 系统 的 合适 位 置 。 如 下 
是 一 个 常见 的 缩写 ,在 不 同 的 学 科 甚 至 同一 学 科 代 表 
不 同 的 含义 , 它 可 能 是 Industrial Engineering( 工 业 工 
各 B=<Industrial Ecology( 工业 生态 学 ) Ionization Energy 
(电光 能 ) 、Information Extraction (信息 抽取 )、Informa- 
iiemplement( 信息 元 素 ) .Information Engineering (信息 
J 鳃 ) 和 TInemet Explorer( 微 软 的 因特网 浏览 器 ) 等 。 

回 根 据 W3C 的 简单 知识 组 织 系 统 (Simple Knowl- 
edge Organization System ,SKOS ) 标准 ,在 不 同 的 概念 体 
系 志 间 上 映射, 设置 了 5 种 映射 或 者 对 齐 类 型 ,分 别 为 

ost closeMatch ( 相似 匹配 )、skos: exactMatch (精确 匹 
配 双 skos : broadMatch ( 上 位 匹配 ) 、skos: narrowMatch 
(包租 匹配 ) 和 skossrelatedMatch( 相关 匹配 ) ,这 些 
映射 类 型 相对 简单 ,在 实践 上 语义 理解 偏差 会 较 大 ,要 
净 夭 同 的 概念 体系 融合 起 来 仍然 存在 极 大 的 挑战 。 
1.82 关系 定义 不 一 致 性 

“三 知识 组 织 系统 中 一 般 都 有 一 些 关联 关系 ,根据 我 
国 侨 词 表 构 建 相 关 标 准 ,大 的 类 型 包括 等 同 关系 、 属 分 
关系 (等 级 关系 ) 和 相关 关系 。 但 是 不 同 来 源 的 知识 


S 


学 习 算 法 领会 ,因此 自动 处 理 总 会 有 一 些 意 想不到 的 
结果 出 现 。 也 就 是 说 尽管 很 多 自动 工具 的 处 理 结果 能 
够 接近 人 工 水 平 ,但 是 总 会 有 一 些 机 器 始终 无 法 排除 
的 结果 ,人 工 可 以 很 简单 地 确定 。 因 此 出 发 点 以 及 对 
质量 的 要 求 不 同 ,构建 方法 不 同 ,构建 的 结果 自然 也 不 
同 ,把 这 些 不 同 的 知识 组 织 系统 整合 在 一 起 ,自然 也 会 
存在 不 一 致 。 
1.3.4 知识 内 容 不 一 致 性 

知识 组 织 系统 本 身 会 尽量 避免 不 一 致 性 ,并 且 在 
一 个 较 小 的 范围 内 也 是 可 以 做 到 的 。 但 是 ,将 多 个 知 
识 组 织 系统 集成 为 一 个 复杂 的 、 广 泛 关联 的 适用 范围 
更 广 的 知识 组 织 系统 , 则 一 定 需 要 考虑 容错 ,因为 不 一 
致 的 情况 必然 存在 ,而且 也 很 难 从 全 局 进行 协调 。 这 
就 应 该 允许 一 定 的 非 一 致 性 ,如 同时 承认 鸟 会 飞 以 及 
能 鸟 \ 企 笋 等 少数 乌 不 会 飞 ,这 样 可 能 并 不 会 让 服务 变 
差 , 反 而 更 接近 于 人 的 认 知 ,当然 要 做 好 服务 ,还 需要 
做 好 非 协调 推理 ,匹配 不 同 知识 内 容 的 应 用 场景 。 对 
于 有 一 些 存 在 根本 错误 的 知识 , 则 需要 根据 用 户 的 反 
馈 或 者 抽检 发 现 并 及 时 修订 。 
1.4 应 用 挑战 
1.4.1 需求 多 样 性 

知识 服务 的 需求 是 多 种 多 样 的 ,不 同 的 应 用 场景 
下 ,会 用 到 不 同 的 知识 组 织 系 统 ,如 何 将 不 同体 量 .不 
同 深度 的 知识 组 织 系统 整合 起 来 发 挥 作用 ,是 应 用 中 
的 一 个 难点 ,理想 状态 可 能 是 构建 一 个 大 而 全 的 知识 
组 织 系统 ,但 是 实践 中 受 限于 所 需 的 人 财物 等 资源 很 


组 织 系统 之 间 关 系 的 定义 可 能 是 不 一 样 的 ,即使 在 标 
准 中 ,也 给 出 了 关系 类 型 的 若干 可 能 :等 同 关 系 包括 同 
义 词 和 准 同 义 词 ,同义词 有 不 同 子 类 型 , 准 同义词 还 可 
能 包含 反义词 和 部 分 事实 上 的 属 分 关系 ; 属 分 关系 包 
含 属 种 关系 、 整 体 - 部 分 等 级 关系 、 实 例 关系 ;相关 关 
系 仅 在 标准 中 列举 的 就 已 经 有 12 种 ,并 且 还 不 是 完 
列举 。 所 以 形式 上 属于 某 种 关系 ,实际 上 可 能 是 
不 同 的 细 分 关系 ,尤其 是 在 不 同 的 知识 组 织 系统 中 ,这 
种 表现 更 为 明显 。 
1.3.3 构建 方法 不 一 致 性 

当前 在 知识 组 织 系统 构建 方面 ,存在 多 种 技术 路 
线 :完全 依靠 人 工 、 依 靠 自动 工具 或 者 人 机 结合 。 早 期 
大 部 分 知识 组 织 系统 都 是 依靠 人 工 构建 的 ,近年 来 一 
些小 规模 的 较为 严谨 的 知识 组 织 系统 依赖 人 机 结合 ， 


难 实现 。 在 应 用 多 个 知识 组 织 系统 的 时 候 ,要 注意 知 
识 组 织 系 统 本 身 的 覆盖 范围 和 深度 。 例 如 ,对 于 《中 国 
图 书馆 分 类 法 》 这 样 的 综合 分 类 体系 ,很 难 覆 盖 像 燃 
料 电池 汽车 "这 样 的 细 分 类 别 ,《 汉 语 主题 词 表 》 这 样 
的 综合 词 表 也 不 可 能 收录 “ 粗 唱 粒 钢 ” 这样 的 专业 词 
条 并 描述 其 与 其 他 词 之 间 的 关系 ,更 不 要 说 收录 “1 ,1， 
2,2,9,9,10,10- 八 所 [2.2] 二 聚 对 二 甲 茶 " 这 样 的 复 
杂 化 合 物 名 称 。 
1.4.2 外 来 适应 性 

在 一 些 应 用 实践 中 ,没有 合适 的 知识 组 织 系统 ,也 
很 难 从 头 构建 ,一 种 可 能 的 方案 是 借助 外 来 知识 组 织 
系统 ,但 会 带 来 外 来 适应 性 问题 ,如 在 某 项 实践 中 , 没 
有 合适 的 词 表 ,将 一 个 英文 的 金融 银行 领域 词 表 翻 译 
为 中 文 , 发 现在 翻译 过 程 中 有 一 些 词 很 难 翻译 ,如 “10 
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-kK” 实 际 上 是 “(公司 每 年 必须 向 美国 证 券 交 易 委 员 
会 备案 的 财务 报表 等 ) 公 开 文 件 ” ,但 是 不 加 以 注释 很 
难 做 出 对 应 翻译 , 像 401K( 美 国 的 一 种 退休 金 储 蓄 ) 这 
样 美国 特色 的 词 条 翻译 过 来 ,可 能 对 中 文 数据 组 织 没 
有 多 少 意义 ,翻译 后 也 会 对 一 些 关 联 关 系 造成 影响 ,如 
原来 具有 关系 “cash-synonym-money”, 对 词 条 翻译 后 关 
联 变 为 "现金 - 同义词 - 现金 " ,失去 了 关联 价值 。 此 
外 ,翻译 后 还 存在 两 个 词 之 间 建 立 了 多 个 不 同 关联 关 
系 的 情况 ,这 主要 是 因为 两 种 语言 无 法 做 到 一 对 一 翻 


译 。 
2 应 对 策略 


针对 知识 组 织 系统 构建 和 应 用 的 挑战 ,知识 组 织 

芋 作 可 以 从 标准 化 的 可 分 结构 与 非 对 称 结构 ,多 来 源 

更 涤 策 咯 和 弹性 应 用 服务 模式 等 角度 确立 系列 模型 来 

识 绍 应 对 。 

2 知识 结构 

2 全， 可 分 结构 与 标准 化 

< 二 面 对 大 数据 服务 ,知识 组 织 系统 不 应 也 不 能 是 唯 
,知识 组 织 需要 分 工 合作 和 共享 。 如 在 中 国 工程 

oO 

8 二 求 构建 各 自 的 专业 领域 知识 组 织 系统 ,而 知识 中 

必 凡 整体 上 整合 各 个 分 中 心 的 知识 组 织 系统 ,并 加 以 

补 完 完善 ,形成 综合 性 的 工程 科技 知识 组 织 系 统 。 可 

es 


二 


实施 知识 组 织 系统 是 依据 可 分 特性 从 大 系统 中 提取 出 
来 欧 子 系统 ,而 这 个 特定 的 知识 组 织 系 统 仍然 可 以 继 
续 旺 有 可 分 特性 。 

据 此 提出 大 数据 服务 中 知识 组 织 系统 的 可 分 模型 
见 图 1 ,在 知识 结构 上 可 分 具体 指 * 分 层 、 分 级 分 块 、 
分 面 "。“ 分 层 " 是 说 从 整体 上 知识 组 织 系统 全 集 可 以 
分 为 频繁 集 和 非 频繁 集 两 个 部 分 。 大 数据 服务 总 有 一 
些 在 某 个 时 间 周 期 内 频繁 访问 的 知识 组 织 系 统 数据 ， 
这 部 分 就 是 频繁 集 ,类 似 电 商 网 站 .新 闻 网 站 的 热 数 
据 , 与 之 相对 的 非 频繁 集 则 类 似 冷 数据 ,这 种 分 层 及 动 
态 转化 有 助 于 应 对 用 户 对 大 数据 服务 的 使 用 ,在 平均 
水 平 上 改善 用 户 体验 。“ 分 级 "主要 针对 频繁 集 这 部 
分 ,还 可 以 进一步 将 其 细 分 为 核心 集 和 扩展 集 ,两 者 共 
同 发 挥 作用 ,相对 而 言 核心 集 更 加 稳定 ,对 应 长 期 不 变 
的 内 容 ,而 扩展 集 对 应 及 时 反应 变化 的 内 容 。 知 识 组 
织 内 容 层次 的 流动 往往 发 生 在 核心 集 与 扩展 集 之 间 、 
扩展 集 与 非 频繁 集 之 间 , 在 具体 的 场景 下 ,知识 组 织 系 
统 可 以 存在 更 多 的 层级 ,也 可 以 对 知识 组 织 系统 中 的 


每 条 知识 给 出 具体 的 稳定 程度 取 值 。“ 分 块 " 是 说 知 
识 组 织 系 统 的 建设 是 分 领域 的 ,不 同 领域 相当 于 全 集 
的 不 同 的 块 。“ 分 面 " 是 指 即使 对 于 一 个 领域 ,知识 组 
织 系统 构建 的 目的 和 视角 可 能 也 是 不 一 样 的 ,同样 对 
于 新 能 源 汽车 这 一 分 块 ,可 能 有 的 知识 组 织 系统 关注 
政策 面 ,有 的 关注 技术 面 ,有 的 关注 经 济 面 。“ 分 面 ” 
和 “分 块 " 对 应 着 不 同 知识 组 织 系统 构建 和 应 用 群体 
的 专业 优势 ,因此 对 于 知识 组 织 系统 内 容 质 量 提升 帮 
助 较 大 。 


图 1 大 数据 服务 中 知识 组 织 系 统 的 可 分 结构 模型 


可 分 结构 可 能 带 来 潜在 的 集成 风险 ,因此 需要 做 
好 标准 化 工作 。W3C 提出 的 SKOS 标准 是 知识 组 织 系 
统 在 互联 网 上 构建 .共享 和 运用 的 事实 标准 ,应 用 日 益 
广泛 。 在 叙 词 表 领 域 国际 标准 化 组 织 发 布 了 ISO025964 
标准 ,我 国 也 对 应 地 更 新 了 CBZT13190 标准 ,在 中 
工程 科技 知识 中 心 建设 和 新 闻 出 版 单位 知识 服务 实践 
中 也 推出 了 相关 的 项 目 或 行业 标准 ,并 推动 相关 标准 
进入 国家 标准 。 在 分 类 法 上 ,《 杜 威 十 进 制 分 类 法 》 
《国际 专利 分 类 法 兴 中 国 图 书馆 分 类 法 兴 中 国 档案 分 
类 法 》 等 分 类 法 已 经 在 大 量 的 文献 上 使 用 ,相关 构建 经 
验 也 可 延伸 到 其 他 分 类 法 的 构建 ,同时 ,形成 了 一 些 标 
准 , 如 《SDS/AT 2121 - 2004 数据 分 类 与 编码 的 基本 原 
则 与 方法 》, 这 些 标准 对 于 知识 组 织 系统 的 规范 化 有 一 
定 帮 助 。 当 然 , 随 着 大 数据 自身 的 发 展 ,标准 化 的 程度 
还 需要 不 断 加 强 。 
2.1.2 非 对 称 结构 

在 叙 词 表 构 建 标 准 中 往往 有 成 对 关系 类 型 对 称 指 
引 的 要 求 , 而 在 关系 逻辑 校 验 中 ,往往 将 不 对 称 作为 校 
验 的 重要 内 容 。 但 是 在 大 数据 时 代 , 这 种 思路 需要 加 
以 调整 。 实 际 上 非 对 称 指引 早已 有 之 ,如 分 类 法 中 的 
交替 类 目 和 正式 类 目 ,类 似 于 叙 词 表 中 的 用 代 关 系 , 但 
是 不 在 正式 类 目 处 标注 。 现 在 只 是 将 非 对 称 指引 
扩大 到 原来 严格 要 求 对 称 指引 的 关系 类 型 。 
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如 在 茶 实 践 中 ,按照 某 一 标准 ， 教 学 "有 超过 1 万 


识 组 织 系统 ,或 者 确定 该 资源 不 符合 知识 服务 的 初 囊 


条 相关 词 ,但 是 从 对 “教学 ” 的 认识 角度 出 发 ,不 太 可 
能 将 1 万 余 条 词 条 同时 展示 给 用 户 ,也 不 太 可 能 将 这 
些 词 都 加 入 到 相关 程序 进行 计算 。 在 这 些 词 中 ,根据 
相关 程度 排名 靠 前 的 “教师 “学 生 ”"“ 教 室 "“ 多 媒体 ” 
等 非常 重要 ,排名 靠 后 的 “机 械 专 业 课 ”“ 体 育 游 戏法 ” 
“写作 知识 "等 相对 于 “教学 "来 说 是 相关 的 ,但 是 并 非 
“教学 "的 强 关联 知识 。 然 而 对 于 “机 械 专业 课 ”““ 体 育 
游戏 法 “写作 知识 ”这些 词 来 说 ,和 "教学 "的 关系 则 
是 较 强 的 关联 ,因此 从 构建 知识 组 织 系统 的 角度 没有 
必要 因 循 对 称 性 指引 原则 而 为 “教学 "建立 上 万 条 关 
系 ,只 需 选 择 最 重要 的 几 条 或 者 几 十 条 即 可 ,对 其 他 的 
词 条 也 同样 处 理 ,这 就 会 出 现 “ 机 械 专 业 课 "“ 体 育 游 
戏 潜 "“ 写 作 知识 "指向 并 关联 “教学 ” ,但 是 教学 并 不 
指 何 这 些 词 , 而 是 指向 "教师 “学 生 ”“ 教 室 “多 媒 
体 * 竹 词 , 即 非 对 称 指引 。 这 种 非 对 称 结构 实际 上 在 微 
和 人 的 社交 网 络 上 更 为 常见 ,并 且 也 被 广泛 接受 , 延 
伸 妈 知识 组 织 系 统 也 非常 合理 。 

2 驴 上 多 来 源 更 新 策略 

知识 组 织 系统 的 构建 是 不 断 选 代 的 ,在 大 数据 时 
代 完 整 更 新 一 个 知识 组 织 系统 是 困难 的 ,因此 主要 是 


而 需要 删除 。 
2.2.2 ”用户 驱动 策略 
由 于 大 数据 的 知识 服务 使 用 的 数据 和 提取 的 知识 
不 能 保证 百分之百 是 通过 验证 没有 任何 错误 的 ,因此 
用 户 在 实际 使 用 中 的 表现 可 以 作为 发 现 问题 和 解决 问 
题 的 一 个 途径 。 理 想 情 况 下 ,用 户 能 够 全 面 反馈 使 用 
中 的 问题 ,但 是 在 现实 中 只 能 通过 分 析 用 户 的 行为 , 尤 
其 是 那些 不 关注 .不 点 击 、 相 对 注意 时 间 短 等 行为 , 挖 
掘 出 相关 问题 进一步 改善 ,以 便 让 用 户 在 后 续 使 用 中 
不 发 生 或 者 少 发 生 这 类 错误 。 此 外 还 应 该 关注 系统 对 
用 户 输入 的 响应 ,如 果 没 有 响应 或 者 响应 极 少 的 情况 ， 
在 排除 用 户 输入 错误 的 前 提 下 ,对 应 的 知识 组 织 系统 
很 可 能 就 需要 调整 。 用 户 驱动 实际 上 对 用 户 数量 以 及 
日 户 数据 处 理 能 力 都 有 较 高 的 要 求 。 如 果 用 户 数量 
少 , 则 可 能 反映 的 问题 没有 典型 性 ;如 果 数 据 处 理 能 
弱 , 则 必然 存在 更 新 时 滞 以 及 根本 来 不 及 更 新 的 问题 。 
2.2.3 问题 驱动 策略 

一 项 服务 不 能 解决 全 部 的 问题 ,因此 知识 服务 要 
相对 专门 化 。 解 决 的 问题 发 生变 化 ,对 应 的 知识 组 织 
系统 也 需要 更 新 ,面向 不 同 问题 的 知识 组 织 系统 基础 


= 


硬 晤 可 分 结构 中 的 某 一 局 部 进行 修补 式 更 新 ,具体 更 
狼 罕 型 见 图 2, 更 新 的 驱动 力 来 自 数据 资源 本 身 .用户 
和 和 斑 建 的 应 有 本身。 需要 说 明 的 是 ,这 些 更 新 往往 是 
局 妥 式 的 ,通过 发 现 关于 某 一 知识 的 更 新 需求 ,往往 需 
要 海 虑 是 否 要 将 更 新 扩展 到 这 一 类 知识 上 。 
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大 数据 资源 
图 2 大 数据 服务 中 知识 组 织 系 统 的 更 新 模型 


2.2.1 资源 驱动 策略 

资源 长 期 持续 变动 是 大 数据 的 一 个 显著 特征 ,并 
且 变 化 的 速度 很 快 ,因此 为 了 组 织 变化 的 数据 资源 ,对 
资源 变动 进行 响应 ,需要 根据 资源 修正 和 调整 知识 组 
织 系统 ,尤其 是 变动 频繁 的 扩展 集 部 分 ,或 者 将 一 部 分 
韭 频 繁 集 变 为 频繁 集 , 否则 就 会 存在 无 法 组 织 管理 的 
数据 ,或 者 这 部 分 数据 揭示 的 水 平 不 够 。 每 当 资 源 变 
化 的 时 候 , 需 要 利用 覆盖 度 等 指标 对 已 有 的 知识 组 织 
系统 来 评估 ,如果 评 佑 指标 偏 低 , 则 需要 更 新 相应 的 知 


可 能 是 相似 的 ,应 用 需要 在 这 个 基础 上 面向 问题 做 定 
制 化 更 新 改造 。 比 如 金属 材料 方面 的 知识 组 织 系统 在 
面向 下 游 机 械 行业 科研 人 员 设 计 的 时 候 应 该 多 考虑 其 
性 能 指标 相关 力学 属性 ,而 在 面向 上 游 冶 金 行业 用 户 
的 时 候 应 该 多 考虑 其 晶体 组 织 冶炼 工艺 和 冶炼 设备 
之 间 的 关系 。 做 细 分 领域 知识 服务 的 时 候 , 应 根据 问 
题 逐步 细 化 ,只 有 在 具体 的 “混合 动力 汽车 ”领域 技术 
方 癌 选 择 时 才 有 必要 区 分 “ 插 电 式 ” 和 “ 增 程 式 ”, 而 在 
更 大 的 视角 下 , “混合 动力 汽车 ”本 身 甚至 都 没有 单独 
列举 的 必要 ,而 是 代 之 以 更 高 层级 的 “新 能 源 汽车 ”。 
2.3 弹性 应 用 服务 模式 

借助 知识 组 织 系统 提供 大 数据 服务 的 机 理 见 图 
3 ,知识 组 织 系统 和 大 数据 资源 一 样 , 不 是 直接 面 对 用 
户 , 而 是 通过 针对 不 同 问 题 的 应 用 向 用 户 提供 服务 。 
日 户 实际 上 受到 大 数据 资源 和 知识 组 织 系 统 本 吴 的 限 
制 ,大 数据 资源 决定 了 他 们 能 够 获取 服务 数量 的 上 限 ， 
当前 的 知识 服务 的 竞争 很 大 程度 上 是 数据 资源 本 身 的 
竞争 ,因此 各 类 知识 服务 的 提供 者 倾向 于 获取 并 提供 
更 多 的 资源 ,尤其 是 独占 资源 ;而 资源 的 标签 .分 类 等 
知识 组 织 系 统 的 丰富 程度 和 标 引 准确 程度 决定 了 服务 
质量 的 上 限 , 在 一 些 数据 资源 相对 开放 的 领域 , 如 专 
利 新闻, 不同 服务 提供 者 能 获取 的 资源 是 基本 一 致 
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的 ,因此 竞争 实际 上 变 为 包括 知识 组 织 在 内 的 系列 加 
工 和 服务 技术 的 竞争 ,服务 模式 的 弹性 尤为 重要 。 


KOS 
| 


人 


大 数据 资源 


区 


有 


图 3 借助 知识 组 织 系统 的 大 数据 服务 机 理 


相同 的 大 数据 上 ,可 以 构建 不 同 的 应 用 服务 ,对 应 
的 知识 组 织 系统 及 其 关联 的 资源 都 存在 体现 不 同 维 
糜 < 环 同 视角 的 一 个 或 者 多 个 分 面 ,大 数据 服务 中 的 知 
识 蛤 织 系统 特定 应 用 模型 见 图 4。 不 同 的 分 面 之 间 也 
演 铺 明显 的 界限 , 某 个 分 面具 体 用 哪 部 分 知识 组 织 系 
统 旺 恨 据 资源 .用 户 以 及 所 面 对 间 题 动态 调整 的 ,知识 
组 缉 系统 应 该 是 自 适应 弹性 伸缩 的 , 某 些 极限 的 情况 
卫 卡 包含 全 部 的 知识 组 织 系统 ,但 是 一 般 会 对 知识 组 
颖 绚 统 的 精细 化 程度 要 求 有 所 降低 ,以 节省 计算 和 服 


4 大 数据 服务 中 的 知识 组 织 系统 弹性 应 用 服务 模型 


因为 知识 组 织 系统 是 迭代 的 ,因此 有 多 个 版 本 ,在 
利用 这 些 知 识 组 织 系统 的 时 候 , 要 用 相应 的 时 间 标 签 ， 
标明 在 特定 的 知识 组 织 系统 状态 下 进行 的 各 类 标 引 操 
作 。 实 际 上 一 个 应 用 中 使 用 的 知识 组 织 系 统 的 不 同 部 
分 可 能 是 相同 时 间 的 ,也 可 能 是 不 同时 间 的 。 如 在 专 
利 标 引 工作 中 ,用 到 国际 专利 分 类 表 ( International Pa- 
tent Classification ,IPC ) 标 引发 明 专 利和 实用 新 型 专利 ， 
用 国际 外 观 设 计 分 类 表 标 引 外 观 专利 ,都 需要 通过 标 
注 版 本 号 来 区 分 同时 使 用 的 不 同 版 本 的 分 类 表 “| 。 
再 如 某 档案 大 数据 项 目 中 ,需要 综合 使 用 分 类 法 和 和 令 
词 表 进行 知识 组 织 ,其 中 分 类 法 沿用 1997 年 版 本 的 
《中 国 档 案 分 类 法 》 未 做 调整 , 词 表 则 没有 直接 沿用 
1995 年 版 本 的 《中 国 档案 主题 词 表 》, 而 是 在 其 基础 上 


补充 了 1995 年 后 反映 档案 主题 变化 的 新 的 主题 词 , 如 
“一 带 一 路 "“ 亚 投行 "等 。 


3 ”结论 


大 数据 服务 中 面临 知识 组 织 的 数据 膨胀 挑战 、 文 
献 保 证 挑战 集成 挑战 以 及 应 用 挑战 。 知 识 组 织 的 脱 
胀 挑战 ,可 以 利用 标准 化 前 提 下 可 分 的 知识 结构 ,通过 
多 机 构 多 人 分 工 合 作 和 共享 来 应 对 ;文献 保证 挑战 可 
以 通过 多 来 源 的 更 新 策略 优化 知识 组 织 系统 ,并 利用 
非 对 称 性 结构 来 应 对 ;集成 挑战 可 以 通过 标准 化 和 可 
分 机 构 来 部 分 解决 ;应 用 挑战 可 以 通过 从 可 分 的 知识 
结构 结合 弹性 服务 模式 和 恰当 的 更 新 策略 来 部 分 解 
决 。 因 此 ,在 大 数据 时 代 , 知 识 组 织 系统 本 映 也 需要 与 
时 俱 进 ,形成 一 个 可 分 层 分 级 分 块 分 面 , 非 对 称 性 , 根 
据 资源 、 用 户 、 问 题 实时 演化 迭代 的 复杂 系统 。 系 统 中 
可 能 包含 知 干 相对 独立 但 又 相互 关联 的 子 系统 ,在 应 
用 中 需要 提取 合适 的 子 系统 ,与 特有 的 数据 资源 .问题 
和 用 户 结合 形成 服务 ,并 在 应 用 中 更 新 知识 组 织 系 统 。 
但 是 ,在 知识 组 织 系统 集成 以 及 应 用 方面 ,挑战 仍 未 得 
到 彻底 解决 ,其 他 对 策 中 的 真实 案例 也 只 是 覆盖 部 分 
知识 组 织 系统 类 型 ,还 有 一 部 分 方案 仍 是 设想 ,这 些 都 
需要 下 一 步 工 作 中 逐步 解决 。 
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| Purpose/ significance | Big data services bring more challenges to knowledge organization. Through 


-CBserving, understanding and analyzing these challenges, knowledge organization work stakeholders would grasp pos- 


oie changes and provide countermeasures. | Method/process | Focusing on the construction and application of 


knowledge organization system, challenges of different aspects of knowledge organization were analyzed and counter- 


measures were proposed from related real case practice. | Result/conclusion | The challenges of knowledge organiza- 


tion in big data services can be divided into four aspects: data explosion, document assurance, integration and appli- 


cation. A series of knowledge organization frameworks for big data services including new knowledge structure, multi- 


source updating strategy and elastic application service model are proposed, which can better meet the above challen- 
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